The current optical communication systems minimize bit or symbol errors without considering the semantic meaning behind digital bits, thus transmitting a lot of unnecessary information. We propose and experimentally demonstrate a semantic optical fiber communication (SOFC) system. Instead of encoding information into bits for transmission, semantic information is extracted from the source using deep learning. The generated semantic symbols are then directly transmitted through an optical fiber. Compared with the bit-based structure, the SOFC system achieved higher information compression and a more stable performance, especially in the low received optical power regime, and enhanced the robustness against optical link impairments. This work introduces an intelligent optical communication system at the human analytical thinking level, which is a significant step toward a breakthrough in the current optical communication architecture.
translated by 谷歌翻译
步态冻结(FOG)是帕金森氏病的最常见症状之一,这是中枢神经系统的神经退行性疾病,影响了世界各地数百万的人。为了满足提高雾的治疗质量的紧迫需求,设计雾计算机辅助检测和量化工具的需求越来越重要。作为一种用于收集运动模式的非侵入性技术,从压力敏感步态垫中获得的脚步压力序列为评估诊所和家庭环境中的雾气提供了绝佳的机会。在这项研究中,提出了雾检测为一项顺序建模任务,并提出了一种新颖的深度学习结构,即对对抗性时空网络(ASTN),提出了跨多个级别的雾模式。引入了一种新型的对抗训练方案,并具有多级主题鉴别器,以获得独立的雾代表示,这有助于降低由于高主体间方差而导致的过度拟合风险。结果,对于看不见的受试者,可以实现强大的雾检测。拟议的计划还阐明了从其他场景中改善主题级临床研究,因为它可以与许多现有的深层建筑集成在一起。据我们所知,这是基于脚步压力的雾检测的最早研究之一,利用ASTN的方法是追求独立于主题的表示形式的第一个深神经网络架构。从21名受试者收集的393次试验的实验结果表明,AUC 0.85的雾检测提出的ASTN表现令人鼓舞。
translated by 谷歌翻译
心电图(ECG)是心脏病的广泛使用的非侵入性诊断工具。许多研究设计了ECG分析模型(例如分类器)来协助诊断。作为一项上游任务,研究建立了生成模型来综合ECG数据,这对提供培训样本,隐私保护和减少注释是有益的。但是,以前的ECG生成方法通常既不合成多视图数据,也不涉及心脏病状况。在本文中,我们提出了一种新型的,用于多视图ECG合成的新型疾病的生成对抗网络,称为ME-GAN,该网络获得了以心脏病为条件的全磁心电图表示,并将其投射到多个标准视图上,以产生ECG信号。由于心脏病的心电图表现通常位于特定波形中,因此我们提出了一种新的“混合标准化”,以精确地注入合适的位置。此外,我们提出了一个视图歧视者,将无序的心电图视图恢复为预定的顺序,监督发电机以获取代表正确视图特征的ECG。此外,提出了一个新的度量RFID,以评估合成的ECG信号的质量。全面的实验验证了我们的ME-GAN在具有可信赖的病态表现的多视图ECG信号合成上表现良好。
translated by 谷歌翻译
利用上下文信息是提高对话自动语音识别(ASR)的性能的直观想法。以前的作品通常采用公认的历史话语假设作为前面的背景,这可能会偏向于由于不可避免的历史认可错误而导致的当前公认假设。为了避免此问题,我们提出了一个音频文本跨模式表示器,以直接从先前的语音中学习上下文表示。具体而言,它由两个与模态相关的编码器组成,从语音和相应的文本中提取高级潜在特征,以及一个跨模式编码器,旨在学习语音和文本之间的相关性。我们随机掩盖每种模式的一些输入令牌和输入序列。然后,在交叉模式编码器上使用模态级别的CTC损失进行令牌错失或模态失误预测。因此,该模型不仅捕获了特定模式中的双向上下文依赖性,还捕获了不同模态之间的关系。然后,在训练对话ASR系统的训练期间,提取器将被冻结以提取上述语音的文本表示,而该表示形式则用作通过注意机制将其作为供应给ASR解码器的上下文。拟议方法的有效性在几个普通话对话中得到了验证,并且在MagicData数据集中,达到了最高的字符错误率(CER)最高16%。
translated by 谷歌翻译
基于变压器的模型已经证明了它们在自动语音识别(ASR)任务中的有效性,甚至比常规混合框架表现出卓越的性能。变形金刚的主要思想是通过自我发挥层来捕捉话语中的远程全球背景。但是,对于诸如对话演讲之类的场景,这种话语级建模将忽略跨越话语的上下文依赖性。在本文中,我们建议在基于变压器的端到端体系结构中明确模拟索语中的索引信息,以进行对话性语音识别。具体而言,对于编码器网络,我们捕获了先前语音的上下文,并将此类历史信息纳入了通过上下文感知的残余注意机制中的当前输入。对于解码器而言,当前话语的预测还可以通过有条件的解码器框架在历史性的语言信息上进行条件。我们展示了我们提出的方法在几个开源对话中心的有效性,而拟议的方法始终提高了基于话语级变压器的ASR模型的性能。
translated by 谷歌翻译
组成零射击学习(CZSL)旨在识别训练过程中从可见状态和物体形成的看不见的构图。由于与不同对象纠缠的视觉外观中相同的状态可能是不同的,因此CZSL仍然是一项艰巨的任务。某些方法使用两个训练有素的分类器识别状态和对象,忽略了对象与状态之间的相互作用的影响;其他方法试图学习状态对象组成的联合表示,从而导致可见和看不见的组成集之间的域间隙。在本文中,我们提出了一种新颖的暹罗对比度嵌入网络(场景)(代码:https://github.com/xduxyli/scen-master),以实现看不见的构图识别。考虑到状态与物体之间的纠缠,我们将视觉特征嵌入了暹罗对比度空间中,以分别捕获它们的原型,从而减轻了状态与物体之间的相互作用。此外,我们设计了一个状态过渡模块(STM),以增加训练组成的多样性,从而提高识别模型的鲁棒性。广泛的实验表明,我们的方法在三个具有挑战性的基准数据集(包括最近提出的C-QGA数据集)上的最先进方法大大优于最先进的方法。
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
公平的机器学习旨在避免基于\ textit {敏感属性}(例如性别和种族)对个人或子人群的治疗。公平机器学习中的那些方法是基于因果推理确定的歧视和偏见的。尽管基于因果关系的公平学习吸引了越来越多的关注,但当前的方法假设真正的因果图是完全已知的。本文提出了一种一般方法,以实现反事实公平的概念时,当真实的因果图未知。为了能够选择导致反事实公平性的功能,我们得出了条件和算法,以识别\ textit上变量之间的祖先关系{部分定向的无循环图(pdag)},具体来说,可以从一类可学到的dag中学到。观察数据与域知识相结合。有趣的是,我们发现可以实现反事实公平,就好像真正的因果图是完全知道的一样,当提供了特定的背景知识时:敏感属性在因果图中没有祖先。模拟和实际数据集的结果证明了我们方法的有效性。
translated by 谷歌翻译
State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm may introduce bias for modeling the underlying data distribution. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph constraint. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
translated by 谷歌翻译
具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译